P²-DPO: Calibración de preferencias contra alucinaciones en visión-lenguaje Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana. 2026-06-03 · 2 min